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摘要 :本文 提 出 一 种 多 级 计 分 项 目下 的 个 人 拟 合 统计 量 R， 考 察 它 在 检测 6 种 常见 的 异常 作 


答 模 式 ( 作 浆 、 猜 测 、 随 机 、 粗 心 、 创 新 作 管 、 


混合 异常 ) 下 的 表现 ， 并 与 标准 化 对 数 似 然 


统计 量 1 进行 比较 。 结 果 表 明 : (1) 在 异常 作答 履 盖 率 较 低 并 且 异 常 作答 类 型 为 作弊 和 猜测 
时 ， 有 R 的 检测 率 显著 高 于 Lp，(2) 随 着 测验 长 度 和 被 试 异 常 程度 的 增加 ， 两 种 统计 量 的 检测 
率 都 会 上 升 ，(3) 在 一 些 条 件 下 ，R 与 1 检测 效果 接近 。 实 证 数据 分 析 进 一 步 展示 了 R 统 计 


1 引言 


量 的 使 用 方法 和 过 程 ， 结 果 也 表明 R 统 计量 具有 较 好 的 应 用 前 景 。 


关键 词 ， 多 级 计 分 项 目 ， 项 目 反 应 理论 ， 个 人 拟 合 统计 量 ， 异 常 行为 检测 ， 等 级 反应 模型 


教育 和 心理 测量 的 主要 目的 是 获得 被 试 的 某 种 潜在 特质 ， 来 评估 和 指导 个 体 的 未 来 发 


展 活动 。 该 特质 可 以 是 学 科 领 域内 知识 和 技能 


掌握 情况 ， 也 可 以 是 个 体 的 态度 、 情 绪 等 。 


为 此 ， 研 究 者 广泛 使 用 测验 或 问卷 作为 测量 潜在 特质 的 手段 。 然 而 在 实际 施 测 过 程 中 ， 几 
乎 无 法 避免 地 会 有 其 他 额外 因素 影响 被 试 的 作答 反应 ， 进 而 威胁 测验 结果 的 有 效 性 ， 如 作 
次 、 低 测验 动机 等 。 不 同 于 被 试 作答 过 程 的 随机 误差 ， 这 些 因素 往往 能 够 导致 测量 数据 产 


生 系统 误差 ， 这 类 被 试 作答 也 被 称 为 异常 作答 。 


经 典 测量 理论 (classical test theory, CTT) 和 项 目 反 应 理论 (item response theory, IRT) 是 常见 


用 以 估计 被 试 特质 水 平 的 理论 手段 ， 其 准确 性 依赖 于 模型 和 数据 的 拟 合 程度 (Hotaka & 


Maeda, 2017)， 若 直接 使 用 存在 异常 的 作答 数据 进行 分 析 和 计算 ， 得 到 的 结果 将 产生 较 大 的 


偏差 ， 由 此 推导 出 的 结论 和 基于 结论 做 出 的 任何 操作 (人 才 选 拔 和 岗位 安置 等 ) 也 将 不 再 具 
有 参考 价值 ， 对 测验 的 很 多 方面 产生 严重 的 负面 影响 ， 比 如 参数 估计 (Oshima，1994; 


Schnipke, 1996; Shao et al., 2016)、 等 值 (Wollack et al., 2003)、 信 度 和 效 度 (Gulliksen, 1950, p. 
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1 236; Lu & Sireci, 2007) 等 ， 进 而 最 终 导致 测验 的 公平 性 和 准确 性 受到 损害 (Buchanan & Smith, 


2 ”1999; Glas & Dagohoy, 2007; Huang et al., 2015)。 许 多 研究 对 于 异常 作答 在 考生 中 的 “流行 


3 ”程度 ”进行 了 报告 ， 比 如 Curran 等 人 (2010)， Meade 和 Craig (2012), Rupp (2013), Meade 


4 (2016), Shao 等 (2016) ，Yu 和 Cheng (2019) 等 ， 这 些 研究 中 的 异常 作答 人 数 占 比 从 最 低 的 
5 ”3.5% 到 最 高 的 50%， 以 中 等 程度 20% 居 多 。 因 此 ， 如 何 将 存在 异常 作答 模式 的 个 体 筛选 出 
6 X, 一 直 是 教育 和 心 
7 为 了 达到 上 述 目的 ， 研 究 者 们 通过 构建 个 人 拟 合 统 计量 (person fit statistic, PFS) 从 数据 
8 ”中 挖掘 被 试 信息 ， 从 而 判断 是 否 为 异常 。Meijer 和 Sijtsma(2001) 将 PFS 划分 为 两 类 : (1) dE 
9 ”参数 化 PFS: 使 用 被 试 的 观察 作答 数据 计算 非 参 数 统计 量 或 将 个 体 与 团体 进行 比较 ，(2) 参 
10 ULAJ PFS: 设 定 基 本 的 模型 假设 ， 利 用 数据 进行 参数 估计 ， 构 建 拟 合 统计 量 ， 与 零 假 设 
11 ”( 受 检验 个 体 属于 正常 群体 ) 下 的 统计 量 分 布 相 比 较 ， 判 断 数 据 和 模型 拟 合 与 否 。 

12 关于 个 人 拟 合 的 研究 最 早 可 以 追溯 到 20 世纪 40 FR, Guttman (1944, 1950) 综 合 被 试 的 
13 ”观察 作答 、 估 计 能 力 、 项 目 截断 点 (cutting point) 之 间 的 关系 ， 来 判断 其 作答 是 否 正常 ， 这 
14 ”为 之 后 的 个 人 拟 合 研究 葛 定 了 基础 。 后 续 有 研究 者 提出 非 参 数 化 的 PFS 如 点 二 列 相关 和 二 
15 ” 列 相关 (Donlon & Fischer, 1968) 等 ， 虽 然 这 类 非 参数 化 检验 方法 在 使 用 上 较为 便捷 ， 仅 需 对 
16 ”原始 数据 进行 少量 的 计算 ， 但 通常 难以 深度 挖掘 数据 中 的 更 多 信息 ， 对 计算 结果 的 解释 不 
17 ” 够 明确 。 相 比 之 下 ， 参 数 化 的 PFS 依靠 严格 的 数学 模型 (如 Rasch 模型 等 )， 在 一 定 的 数据 规 
18 ” 模 下 ， 量 化 被 试 的 异常 程度 ， 依 照 设 定 的 严格 判别 标准 ， 得 出 清晰 的 结论 。 进 一 步 ， 参 数 
19 1L PFS 可 以 粗略 分 为 基于 残 差 和 基于 似 然 两 种 类 型 。 前 者 的 主体 为 观察 作答 和 期 望 作答 之 
20 ， 间 的 残 差 ， 其 建 模 思 路 是 对 残 差 进行 适当 加 权 处 理 ， 如 Wright 和 Stone(1979) 以 及 Wright 和 
21 ”Master(1982) 提 出 的 U 和 W， 分 别 使 用 了 单个 项 目的 平均 条 件 方差 和 测验 总 方差 的 倒数 作为 
22 ”加 权 内 容 。 后 者 则 是 围绕 作答 的 似 然 来 构建 统计 量 ， 例 如 Levine 和 Rubin(1979) 提 出 的 对 数 
23 。 似 然 指标 1b， 以 及 Drasgow 等 人 (1985) 克 服 了 lo 分 布 缺 陷 而 提出 的 标准 化 对 数 似 然 指 标 1;。 
24 当前 ， 个 人 拟 合 检验 的 研究 主要 集中 在 二 级 (0-1) 计 分 的 背景 下 ， 然 而 在 实际 教育 和 心 
于 评估 测验 中 存在 大 量 多 级 计 分 的 数据 ， 例 如 ， 混 合 测 验 中 的 主观 题 ， 或 心理 测验 中 常 使 
26 的 李 元 特 型 (Likert-type) 量 表 问 卷 。 与 二 级 计 分 的 项 目 相 比 ， 多 级 计 分 项 目 能 够 提供 更 多 
27 ”的 信息 ， 只 需要 更 少 的 题目 就 能 达到 和 较 多 二 级 计 分 项 目 同样 的 测量 精度 (van der Ark, 
28 ”2001)。 多 级 计 分 下 的 参数 化 PFS 主要 有 Wright 和 Masters(1982) 提 出 的 标准 化 加 权 均 方 残 差 
29 ”统计 量 u， 以 及 Drasgow 等 (1985) 提 出 的 多 级 标准 化 对 数 似 然 指标 lzp。 但 以 上 两 种 个 人 拟 合 


~ 


理 测量 领域 所 广泛 关注 的 问题 (Schnipke & Scrams, 1997)。 


N 
ol 
"Md 
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统计 指标 存在 一 些 缺 陷 : (I)Rogers 和 Hattie(1987) 指 出 u 对 异常 作答 模式 的 分 类 并 不 敏感 ， 
本 研究 在 预 实验 阶段 也 证 明了 其 较 差 的 检测 能 力 ， 因 此 v 的 实用 价值 十 分 有 限 。(2) 对 于 Lzp 
而 言 ， 它 拥有 较 好 的 标准 化 分 布 形态 ， 和 较为 优秀 的 综合 检验 效果 ， 但 是 在 实际 应 用 中 ， 
研究 者 往往 更 关心 低能 力 者 的 异常 高 能 力 表 现 ， 这 是 因为 高 风险 测验 的 结果 往往 能 够 带 来 
利害 影响 ， 被 试 的 异常 高 能 力 表现 通常 意味 着 发 生 了 诸如 试题 泄露 、 考 生 作 弊 等 较为 严重 
的 测验 安全 事故 ， 与 之 对 应 的 ， 高 能 力 者 的 异常 低能 力 表 现 一 般 是 由 于 被 试 个 人 原因 如 疲 
劳 、 加 速 作 答 等 个 体 因 素 造 成 的 。 因 此 ， 为 了 更 好 地 维护 测验 安全 ， 我 们 亟 需 一 种 针对 腊 
常 高 能 力 敏 感 的 多 级 计 分 PFS. 


2 多 级 计 分 模型 及 拟 合 统计 量 
2.1 多 级 计 分 IRT 模型 
研究 者 提出 了 多 种 用 以 处 理 多 级 计 分 数据 的 IRT 模型 ， 如 等 级 反应 模型 GRM(graded 
response model; Samejima, 1969) 和 分 部 评分 模型 PCM(partial credit model; Masters, 1982) 等 。 
本 文 使 用 的 是 GRM， 其 研究 结果 同样 可 以 推广 到 其 他 模型 如 PCM 等 多 级 计 分 模型 中 ， 研 
究 者 可 以 根据 应 用 情景 进行 选择 。 
在 GRM 中 ， 单 个 项 目 包含 一 个 区 分 度 参 数 和 多 个 等 级 难度 参数 。 定 义 改 表示 被 试 在 项 
目 i 上 的 作答 ，kK 表 示 项 目 j 的 满分 值 ， 则 Xe€ (0,1, … K}， 用 9 表示 被 试 的 潜在 特质 水 平 ， 


aj 和 bj 分 别 表 示 项 目的 区 分 度 和 难度 ， 且 bj = (bj, biz,…,bjx)。 对 于 每 一 个 难度 Bj， 被 试 
都 存在 一 定 概率 Pii.(9) 获 得 k 及 以 上 的 评分 ， 此 时 可 以 用 二 参数 逻辑 斯 带 克 模 型 进行 描述 : 
1 
Pix(0) = (1) 


1 + e-1702aj(0-bjx) 
由 于 单个 Pi 只 能 表示 获得 该 评分 等 级 及 以 上 的 概率 ， 为 了 细 化 每 一 个 评分 等 级 的 概率 ， 需 
要 将 相 邻 难度 对 应 的 概率 值 Pi 与 Pi_1 相 减 ， 可 以 得 到 被 试 在 项 目 i 上 恰好 获得 k 评 分 等 级 的 
概率 : 


Pik = Pik-1 — Pj (2) 
特别 地 ， 对 于 第 一 个 评分 等 级 ， 被 试 获 得 该 评分 的 概率 Pi = 1 — Pj 
假设 某 项 目的 满分 为 4 分 ， 即 有 5 个 评分 等 级 (0,1,2,3,4)， 此 时 ， 被 试 获得 每 个 评分 等 
级 的 概率 如 下 所 示 : 


1 


PAO = 018) 717 Fuss 9) 


P(X; = 1/8) = : : 
j2\Xj = 110) = 1 + e721:702a;(8-bj1) 1 + g-1702aj(8-b;;) 
* pe -— 1 l 
SS 
* E — 1 1 
CE 
1 


Pit 一 40) = 1 + e71792aj(8-bj4) 


2.2 v 统 计量 
Wright 和 Master(1982) 提 出 了 一 种 标准 化 加 权 均 方 残 差 统 计量 u， 其 表达 式 如 下 : 


NEUE SLEDON di 


i [iss E210)) nc] 


K 
E(X,]8) = >  « Pj. (0) (5) 
k=0 


其 中 ，M 为 项 目 个 数 ，K 为 满分 值 ，% 表 示 被 试 在 项 目 i 上 的 得 分 ，Pix(8) 表 示 能 力 为 8 的 被 
试 在 项 目 i 上 恰好 获得 k 评 分 的 概率 ，E (Xi|9) 表 示 被 试 的 期 望 得 分 。 

在 本 文 所 关注 的 异常 作答 条 件 下 ， 我 们 的 预 实 验 表明 v 缺 乏 足 够 的 检验 性 能 ( 见 附录 A), 
因此 后 续 模拟 研究 不 考虑 使 用 v 作 为 比较 对 象 。 
2.3 1 统计 量 

对 数 似 然 统 计量 lo 最 早 是 在 二 级 计 分 下 提出 (Levine & Rubin, 1979)， 多 级 计 分 下 ， 
Drasgow 等 (1985) 在 lo 的 基础 上 进行 了 标准 化 处 理 ， 得 到 标准 化 对 数 似 然 统 计量 !;:， 并 且 推 
导 了 适用 于 多 级 计 分 的 lzp。 对 于 某 被 试 在 测验 上 的 作答 反应 模式 X = {X Xz Xup XZ 
似 然 函数 4 的 表达 式 如 下 : 


M K 
nlL@)] = 2. d(X, = KP nO) (7) 


Z(6) 为 似 然 函 数 ，d() 为 指示 函数 ， 表 示 当 满足 括号 内 条 件 时 取 1， 否 则 为 0。 避 表示 被 试 
在 项 目 j 上 的 观测 得 分 ，Pix(9) 表 示 被 试 在 项 目 i 上 恰好 获得 k 评 分 等 级 的 概率 。 对 志 进 行 标 
准 化 可 以 得 到 : 


- 如 一 E(L) 
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有 良好 的 分 布 形态 (渐进 正 态 
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(9) 


Pik (0) (10) 


3 基于 加 权 残 差 的 多 级 计 分 PFS 开发 


使 用 模拟 实验 对 已 有 的 PFS 进 


分 布 )， 相 较 于 大 部 分 PFS， 各 


有 较 好 的 检验 性 能 (Karabatsos, 2003), Nering (1995) 将 其 称 为 “最 具 


行 性 能 比较 时 ， 
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释 该 种 现象 ， 我 们 分 析 了 不 同 PFS 在 多 级 计 分 背景 下 的 构建 思 


Le 


PFS BAX HH 


分 等 级 的 敏感 性 


ERA, 


我 们 发 现 ， 基 于 残 差 的 PFS 在 异常 高 


这 与 Karabatsos(2003) 的 研究 结果 一 致 。 为 了 解 


\ 路 ， 结 果 表 明 ， 


的 参数 化 统计 量 进行 拓展 ， 开 发 ] 


构建 基于 残 差 拟 合 统计 量 的 5 


一 种 对 异常 高 能 力 敏感 


。 基 于 此 ， 本 研究 在 多 级 计 分 
的 个 人 拟 合 统计 量 R。 


FP 心 思想 是 量化 观 


理想 反应 模式 是 指 给 定 了 各 模型 
概率 分 布 产生 的 反应 模式 ， 
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差 ， 使 用 期 望 得 分 代表 理想 反应 。 


自身 低 难 度 的 项 目 上 获得 高 
的 偏差 (Meijer & Sijtsma, 2001), 


4 参数 (如 能 力 、 难 
被 试 会 更 容易 在 相对 


E 度 、 区 分 度 


察 反 应 模式 和 理 术 


等 ) 后 ， 严 格 依据 反应 函数 的 
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自身 高 难度 的 项 


目 上 获得 低 分 ， 反 之 在 相 


。 不 拟 合 的 作答 模式 必然 会 与 理想 反应 模式 之 
这 种 偏差 可 以 作为 判断 异常 的 依据 。 为 了 更 交 
上 的 观察 作答 ， 


令 % 表 示 被 试 在 项 目 ] 


间 存 在 较 大 
确 地 计算 残 


E(Xi|9) 为 期 望 得 


分 ， 此 时 被 试 的 单个 项 目 得 分 残 差 p = X; 一 E(%|9)， 根 据 公式 (5) 可 以 进一步 分 解 为 : 


这 里 K 表 示 项 目 j 的 满分 值 ，d(-) 为 指示 函数 ， 满 足 条 件 时 取 1, 
在 项 目 /上 恰好 获得 上 评分 
指示 函数 与 概率 差 值 的 
所 以 随 着 k 的 增 大 ， 该 项 的 权 也 就 越 大 。 正 常情 况 下 ， 被 试 的 作 
高 的 几 个 计 分 等 级 ， 对 应 的 残 差 求 和 应 该 人 


K K 
= X; - E(X]0) = > k«a(x; = k) - 9 k Py (8) = 
k=0 k=0 


>》 kr [dQ = KP] 
k=0 


等 级 的 概率 。 对 单个 项 目 
加 权 求 和 。 观 察 公式 (10) 发 现 ， 每 个 计 分 等 级 差 值 的 权重 是 得 


而 对 于 存在 


TAN 


5 


的 残 差 而 言 ， 


常 的 被 试 作答 ， 


(11) 


否则 为 0。Px(9) 表 示 被 斌 
可 以 拆 分 为 k 计 分 等 级 下 ， 


ak, 


答应 该 接近 概率 分 布 中 最 
残 差 将 会 显 


pl 
f= nmt 


5 
"P. 


N 
CF 


fy 
("4 
| = Ge 


著 偏 高 ， 特 别 是 异常 高 能 力作 答 ， 高 的 计 分 等 级 赋予 了 该 部 分 残 差 更 大 的 权重 。 因 此 ， 基 
于 残 差 的 统计 量 在 构建 基础 上 具有 对 异常 高 能 力 表现 的 敏感 性 。 

但 是 仅 考虑 残 差 本 身 ， 并 不 足以 体现 每 个 项 目 之 间 可 能 存在 的 差异 ， 例 如 对 同一 个 被 
试 而 言 ， 在 不 同 参数 的 项 目 上 应 具有 不 同 的 得 分 概率 分 布 。 因 此 ， 即 使 两 个 项 目 上 得 分 的 
残 差 相同 ， 也 不 应 该 将 二 者 划 上 等 号 。 参 考 Snijders(2001) 的 研究 ， 一 个 常见 的 做 法 是 对 残 
差 添 加 权重 函数 wj(6)， 它 能 够 综合 项 目 和 被 试 特点 ， 让 残 差 项 在 统计 量 中 具有 更 合理 的 贡 
献 。 

权重 函数 的 基本 思路 是 放大 “可 疑 ” 的 部 分 ， 缩 小 相对 正常 的 部 分 ， 以 此 来 实现 对 异常 
的 高 敏感 性 。 例 如 ， 被 试 在 项 目 上 获得 了 与 期 望 得 分 接近 的 分 数 ， 此 时 的 加 权 函 数 应 当 略 
小 ， 才 能 将 正常 作答 数据 对 统计 量 的 贡献 降低 ， 反之， 如 果 被 试 在 项 目 上 获得 了 显著 偏离 
期 望 得 分 的 分 数 ， 这 部 分 数据 的 异常 影响 应 当 在 统计 量 中 得 到 放大 。 因 此 ， 参 考 Master 和 
Wright(1997) 使 用 的 标准 化 残 差 和 Yu 和 Cheng(2019) 使 用 的 加 权 残 差 ， 将 权重 函数 定义 如 下 : 


—1 


K 
w;(8) = (> d(X, =k) + P0) (12) 


k=0 


这 样 的 设置 下 ， 权 重 函数 的 大 小 取决 于 实际 得 分 的 理论 概率 值 。 此 概率 越 大 ， 说 明 被 试 的 
作答 是 相对 正常 的 ， 因 为 其 遵循 了 得 分 概率 分 布 ， 概 率 越 小 ， 说 明 被 试 的 作答 越 异 常 。 所 
以 ，w;(9) 在 正常 情况 下 偏 小 ， 在 异常 情况 下 偏 大 。 

另外 ， 加 权 残 差 统 计量 是 通过 累加 全 体 项 目 来 体现 被 试 的 异常 程度 。 由 于 被 试 在 测验 
中 可 能 存在 混合 类 型 的 异常 作答 行为 ， 如 在 部 分 项 目 上 作 浆 ， 同 时 在 测验 尾部 加 速 作 答 。 
导致 高 能 力 表现 的 异常 项 目 残 差 和 低能 力 表 现 的 异常 项 目 残 差 相互 抵消 ， 在 一 定 程度 上 影 
响 检 测 力 。 为 了 避免 这 种 情况 ， 最 大 限度 发 挥 统计 量 的 检测 效果 ， 需 要 对 异常 进行 积累 处 


理 。 


在 实际 应 用 中 ， 被 试 的 真实 能 力 值 9 往往 无 从 得 知 ， 需 要 用 估计 值 8 蔡 代 。 对 于 存在 异 
常 的 被 试 ，6 和 E(Xi|6) 偏 离 的 方向 相同 ， 这 会 导致 计算 时 的 残 差 必然 小 于 理论 值 ， 例 如 ， 
某 低能 力 被 试 (6 = -2) 在 测验 中 作弊 ， 导 致 高 估 其 能 力 (8 = 1)， 在 该 被 试 涉及 作 浆 的 某 个 
项 目 上 ， 观 测 得 分 =K, B TE(Xj6) > EX1 Wx - E(x;6)] < [x; — E(x;]e)]. 5x 
对 统计 量 的 检验 效果 是 不 利 的 ， 因 此 ， 本 研究 采用 取 绝 对 值 来 实现 残 差 的 积累 。 定 义 R 的 
表达 式 如 下 : 


M M K P T 
R= Y ple) =) so Ug D (13) 
e 


e Xs dK = k) «P (9) 


由 于 计算 出 的 期 望 得 分 往往 是 非 整数 ， 所 以 即使 是 完全 正常 的 被 试 ， 其 在 测验 上 的 残 
差 累积 和 也 几乎 不 可 能 为 零 。 在 理想 情况 下 ，R 将 会 控制 在 一 个 较 小 的 范围 内 ， 相 对 应 的 ， 
异常 反应 模式 下 的 R 将 会 显著 偏离 零 分 布 ( 零 假设 条 件 下 的 统计 学 分 布 )。 这 也 是 依靠 PFS 检 
验 异 常 被 试 的 依据 一 一 在 获得 了 R 的 零 分 布 后 ， 通 过 设置 不 同一 类 错误 率 的 截断 点 ， 来 判 
断 受 检验 被 试 的 R 是 否 处 于 接受 域内 。 由 于 有 R 是 加 权 残 差 取 绝 对 值 后 的 累加 和 ， 其 大 小 体现 
了 作答 模式 的 拟 合 程度 ， 所 以 在 进行 假设 检验 时 ， 使 用 的 是 分 布 右 侧 的 单 侧 概率 。 需 要 注 
意 的 是 ， 当 考生 的 观测 得 分 中 存在 异常 数据 时 ， 基 于 此 观测 得 分 进行 项 目 参 数 和 被 试 参数 
的 联合 估计 ， 会 出 现 “ 掩 蔽 效应 ”(masking effect; Fung, 1993; Yuan & Zhong, 2008)， 即 异常 
数据 会 在 一 定 程度 上 影响 参数 估计 ， 进 而 降低 其 被 检测 出 的 可 能 性 。 这 不 利于 比较 R 和 1zy 
的 表现 。 因 此 ， 本 研究 中 的 模拟 实验 考虑 在 已 知 项 目 参 数 时 ， 比 较 它们 的 表现 。 


4 模拟 实验 

模拟 研究 的 主要 目的 是 为 了 检验 R 对 异常 被 试 群体 的 检测 能 力 ， 为 此 我 们 需要 一 个 相 
对 良好 的 比较 对 象 ， 来 直观 地 展现 R 的 优势 和 特点 。 鉴 于 ls, 拥有 优良 的 综合 性 能 ， 受 到 研 
究 者 的 广泛 关注 (de la Torre & Deng, 2008; Sinharay, 2016)。 故 本 研究 选取 lz, 作 为 比较 对 象 ， 
并 以 此 开展 了 三 项 研究 : 研究 一 在 零 假设 条 件 下 ， 模 拟 正常 作答 群体 ， 获 得 R 和 isp 于 不 同 
测验 长 度 下 的 统计 学 分 布 ， 同 时 为 后 续 的 研究 二 提供 了 基础 ， 研 究 二 通过 模拟 被 试 可 能 存 
在 的 不 同 异 常 测验 情境 ， 使 用 R 和 1,, 对 数据 进行 检测 ， 并 基于 虚 警 率 和 检测 率 来 评价 ， 研 
究 三 中 将 R 应 用 于 实证 数据 分 析 ， 观 察 其 表现 。 
使 用 PFS 进行 拟 合 检验 的 基础 是 获取 零 分 布 ， 对 于 lz 等 经 过 标准 化 的 PFS， 仍 然 需要 
谨慎 对 待 。Sinharay(2016) 发 现 ，1z, (站 并 非 服 从 渐进 标准 正 态 分 布 ; van Krimpen-Stoop 和 
Meijer(2002) 的 研究 表明 ， 当 测验 长 度 较 小 时 (如 20,30)，1zy 的 分 布 呈 负 偏 态 分 布 。 考 虑 到 
实际 情境 中 使 用 的 是 被 试 能 力 估计 值 6, ， 因 此 可 以 认为 zy 并 不 服从 标准 正 态 分 布 。 在 ,sy 截 
断 点 的 选取 上 ， 不 能 直接 照搬 标准 正 态 分 布下 的 特定 值 。 为 了 探寻 和 比较 R 和 zy 在 多 级 计 
分 测验 中 的 异常 探测 能 力 ， 本 文 设计 以 下 模拟 研究 ， 研 究 一 ， 得 到 R 和 1zy 的 分 布 和 临界 值 。 
研究 二 ， 计 算 和 比较 R 和 1zy 的 虚 警 率 与 检测 率 。 


4.1 研究 一 : R 和 4, 的 分 布 及 临界 值 


本 研究 使 用 的 多 级 计 分 模型 是 GRM， 参 考 许多 已 有 多 级 计 分 的 研究 (比如 陈 青 等 , 2010; 
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程 小 扬 等 人 , 2012; Dodd et al., 1995; Emons, 2008; 4°44, 丁 树 良 , 2018; Sinharay, 2016), fE 
的 记分 等 级 均 为 五 等 。 构 建 四 种 长 度 条 件 下 的 测验 ， 包 含 20、40、60、80 个 项 目 ， 分 
别 代 表 短 、 中 、 较 长 、 长 测验 。 单 个 项 目 内 的 难度 参数 从 标准 正 态 分 布 中 选取 ， 并 按照 
升序 排列 ， 区 分 度 参数 从 均值 为 0， 标准 差 为 1 的 对 数 正 态 分 布 中 选取 (Xiong etal., 2020; 
能 建华 等 , 2018)。 每 个 长 度 条 件 下 ， 模 拟 10000 名 能 力 值 9 服 从 标准 正 态 分 布 的 被 试 参加 
测验 。 根 据 GRM 得 到 模拟 被 试 的 得 分 分 布 ， 生 成 观测 得 分 。 

计算 /2 和 有 R 的 分 布 时 ， 本 研究 基于 已 知 项 目 参 数 ， 以 及 被 试 能 力 的 估计 值 8。 这 是 因为 
在 实际 测验 中 ， 项 目 一 般 经 过 了 精心 的 编制 和 多 次 的 施 测 ， 可 以 认为 ， 项 目 参数 得 到 了 校 
准 ， 是 已 知 的 ， 这 与 Shao 等 (2016) 和 Sinharay(2016) 的 做 法 相同 。 另 外 ， 由 于 项 目 参 数 己 知 ， 
因此 一 类 错误 率 和 检验 力 不 会 随 着 待 测 数据 样本 中 的 被 试 人 数 的 改变 而 受 影 响 (Sinharay 
2016)。 为 了 将 研究 结果 更 好 地 推广 到 真实 的 测验 情境 中 ， 本 研究 使 用 能 力 估计 值 8 来 进行 
后 续 的 研究 ， 估 计 方 法 为 期 望 后 验 估计 (expected a posteriori, EAP)， 其 表达 式 如 下 : 


IOO 
J L(8)f(@)de 
L(0) 为 似 然 函数 ，f(9) 为 9 的 概率 分 布 密度 函数 。 相 较 于 极 大 似 然 估计 (maximum likelihood 


estimate, MLE), EAP 利用 了 被 试 群体 的 先 验 信息 ， 在 一 定 程度 上 能 够 提高 估计 精度 。 当 先 
验 信息 不 明确 时 ， 可 以 适当 放宽 先 验 分 布 ， 采 用 部 分 信息 先 验 或 改 用 MLE。 
通过 1zp 和 有 R 的 定义 可 知 ， 二 者 均 在 单 侧 反 映 拟 合 程度 ， 区 别 在 于 1zp 越 小 说 明 越 不 拟 合 ， 
R 越 大 说 明 越 不 拟 合 。 因 此 在 截断 点 的 选取 上 ， 设 置 一 类 错误 率 分 别 为 1%、2.5%、 5%, 
选取 了 lzy 分 布 的 第 1、2.5、5 百 分 位 数 和 R 分 布 的 第 99、97.5、95 百 分 位 数 。 
图 1 和 图 2 分 别 给 出 了 R 和 ?2 的 经 验 分 布 。 经 过 正 态 性 检验 和 偏 度 计算 ， 尽 统计 量 呈 正 
偏 态 分 布 ，!zp 则 是 呈 负 偏 态 分 布 。 表 1 展示 了 这 两 种 统计 量 在 不 同 测验 长 度 下 ， 给 定 显 著 
性 水 平 性 上 的 经 验 临 界 值 。 可 以 发 现 ，lzy 在 不 同 项 目 长 度 下 的 临界 值 相近 ， 这 是 lz 公式 标 
准 化 建构 的 结果 ， 而 R 的 临界 值 会 随 着 项 目 长 度 增 加 而 不 断 增 大 ， 这 是 因为 R 是 由 多 项 非 负 
加 权 残 差 累 加 得 到 ， 项 目 数量 越 多 ，R 也 会 越 大 。 
4.2 研究 二 : R 统 计量 和 ,的 检测 率 

在 获得 了 各 种 测验 长 度 下 ， 正 常 被 试 群体 的 PFS 分 布 后 ， 依 靠 设 定 不 同 的 一 类 错误 率 ， 
可 以 得 到 对 应 的 临界 值 。 研 究 二 中 的 项 目 参数 与 研究 一 相同 ， 区 别 在 于 加 入 了 部 分 受 异 常 
因素 影响 的 被 试 。 


异常 的 测验 行为 可 能 以 多 种 方式 表现 出 来 ， 例 如 作 浆 ,题目 预知 ， 低 测验 动机 等 
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(Meijer & Sijtsma, 2001; Rupp, 2013). 5 Karabatso(2003). Doval 和 Delicado(2020) 的 研究 
中 关于 异常 被 试 的 模拟 条 件 ， 我 们 设 定 了 几 种 多 级 计 分 下 的 异常 作答 情况 ， 包 括 叫 作 浆 @ 
镁 运 猜 测 @ 随 机 作答 粗心 曲 创 造 性 作答 @ 混 合 。 其 定义 和 操作 定义 如 表 2 所 示 。 主 要 可 
以 总 结 为 以 下 几 类 : (1) 低 能 力 者 的 异常 高 能 力 表现 (D@);， 2) 高 能 力 者 的 异常 低能 力 表现 
OO: (3) 广 泛 存在 的 随机 作答 表现 @)。 需 要 注意 的 是 ， 实 验 中 模拟 的 异常 类 型 并 不 能 够 
完全 代表 现实 中 可 能 出 现 的 情况 ， 主 要 目的 是 体现 上 述 三 种 异常 类 型 ， 因 此 对 其 命名 和 定 
义 的 解读 应 当 谨 慎 。 
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图 1R 统 计量 在 项 目 长 度 为 20，40，60，80 个 项 目下 的 分 布 
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图 2 1z, 统 计量 在 项 目 长 度 为 20，40，60，80 个 项 目下 的 分 布 
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#1 1zp 和 R 在 测验 长 度 为 20，40，60，80 项 目下 的 截断 点 值 
o=0.05，o=0.025，o=0.01( 单 侧 ) 


项 目 数 一 类 错误 率 R(UB) lzp(LB) 
20 0.01 706.9 -2.215 
0.025 416.2 -1.770 

0.05 282.9 -1.399 

40 0.01 1057.4 -2.176 
0.025 691.9 -1.760 

0.05 519.6 -1.417 

60 0.01 1407.7 -2.125 
0.025 949.2 -1.717 

0.05 730.4 -1.383 

80 0.01 1904.7 -2.127 
0.025 1278.3 -1.738 

0.05 983.6 -1.411 


ik: UB. LB 代表 upper bound fil lower bound， 即 上 限 值 和 下 限 值 。 

被 试 的 异常 作答 项 目 数 m = p x M，M 为 测验 长 度 。 将 异常 程度 p 作 为 自 变量 引入 实验 
中 ， 分 别 等 于 0.1，0.25，0.5( 代 表 低 程度 ， 中 等 程度 ， 高 程度 )， 整 个 研究 共有 4x6x3=72 玫 
实验 条 件 组 合 ， 每 种 实验 条 件 下 模拟 3000 名 被 试 参 加 测验 ， 重 复 100 次 。 对 于 异常 行为 在 


考生 中 的 “流行 程度 ”， 我 们 参考 已 有 研究 (Curran et al., 2010; Meade &Craig, 2012; Rupp, 


2013; Meade, 2016; Shao et al., 2016; Yu & Cheng, 2019)， 将 异常 被 试 在 群体 中 的 占 比 设 定 为 
20% . 

由 于 本 研究 的 主要 目的 是 比较 两 种 统计 量 对 于 异常 作答 行为 的 检测 能 力 ， 故 考察 在 项 
目 参 数 已 知 的 情况 下 它们 的 表现 ， 这 样 异 常 被 试 的 多 少 不 会 对 项 目 参 数 产生 影响 ， 考 生 因 
异常 行为 导致 的 能 力 一 作答 不 拟 合 将 会 更 好 地 通过 PFS 表现 出 来 。 一 旦 被 试 的 PFS 超过 了 
临界 值 (lzy < lap R> RD)， 就 将 该 被 试 标 记 为 异常 。 检 测 率 的 定义 是 标记 为 异常 的 被 试 占 
异常 被 试 的 比例 ， 同 时 ， 虚 警 率 也 将 在 结果 中 标注 出 来 ， 其 值 为 错误 标记 的 正常 被 试 比例 。 
由 于 项 目 参 数 不 会 随 着 异常 被 试 人 数 的 变化 而 产生 影响 ， 虚 警 率 会 相当 接近 临界 值 对 应 的 
一 类 错误 率 。 实 验 结果 如 下 表 3 到 表 6 所 示 。 

从 表 3 到 表 6 我 们 可 以 发 现 ， 实 际 的 虚 警 率 和 事先 设 定 的 一 类 错误 率 十 分 接近 ， 这 是 
因为 临界 值 是 从 正常 被 试 群体 中 选取 的 ， 所 以 该 群体 分 布 中 仍然 有 部 分 极端 个 案 会 超过 临 
界 值 ， 导 致 被 错误 判定 为 异常 ， 理 论 上 该 部 分 被 试 的 比例 与 临界 值 对 应 的 一 类 错误 率 是 一 
致 的 。 
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1 K 2 异常 的 测验 行为 定义 及 其 操作 定义 


异常 类 型 定义 操作 定义 
— 能 力 较 低 的 被 试 在 平均 难度 较 高 的 ”随机 挑选 低能 力 被 试 (0 < 2.375), FE ME 
ie 项 目 上 获得 满分 度 最 高 的 前 n 个 项 目 上 获得 满分 


能 力 较 低 的 被 试 在 平均 难度 较 高 的 ”随机 挑选 低能 力 被 试 (8 < 2Z.375), 在 
幸运 猜测 。 项 目 上 依靠 猜测 获得 满分 难度 最 高 的 前 n 个 项 目 上 ， 有 0.2 的 概 
率 获得 满分 ，0.8 的 概率 维持 原作 答 


T 所 有 能 力 范围 内 的 被 试 都 有 可 能 出 “随机 挑选 被 试 ， 随 机 抽取 mn 题 ， 有 0.8 
现 ， 有 一 定 概率 获得 0 分 的 概率 得 0 分 ，0.2 的 概率 维持 原作 答 
能 力 较 高 的 被 试 在 平均 难度 较 低 的 ”随机 挑选 高 能 力 被 试 (8 > 2.625), 在 
粗心 E — 7 HE e XEAB 02 难度 最 低 的 前 n 个 项 目 上 ， 有 0.8 的 概 
项 目 上 有 一 定 概率 获得 0 分 
率 获得 0 分 ，0.2 的 概率 维持 原作 答 
及 能 力 较 高 的 被 试 在 最 容易 的 项 目 上 ”随机 挑选 高 能 力 被 试 (0 2.625), 在 
E 获得 0 分 难度 最 低 的 前 n 个 项 目 上 获得 0 分 
混合 将 以 上 异常 情况 进行 混合 以 上 五 种 情况 各 占 异 常 被 试 总 体 的 五 
比 口 
分 之 一 


2 ik: 9 < 2.375 表 示 能 力 由 低 到 高 排序 的 前 37.5%，9 > 2Z.625 表 示 能 力 由 低 到 高 排序 的 后 37.5%。 

3 一 方面 ， 在 测验 长 度 为 20， 异 常 程度 低 ( 即 受 异常 作答 行为 影响 的 题目 百分比 为 1096) 
4 ”时 ，R 对 各 类 异常 行为 的 检验 力 都 比 lz 要 高 ， 平 均 高 出 17.6%; 而 当 异 常 程 度 达 到 中 等 或 
5 ”高 ( 即 受 异常 作答 行为 影响 的 题目 百分比 为 23% 和 50%) 时 ， 两 者 的 平均 检测 率 几 乎 相同 ; 
6 ”在 测验 长 度 为 40， 异 常 程度 低 时 ，R 对 各 类 异常 行为 的 检验 力 平 均 高 出 1z,11.2%， 在 异常 程 
7 ”上 度 达到 中 和 高 时 ， 二 者 的 平均 检测 率 相 当 接 近 ;， 当 测验 长 为 60 时 ， 低 异常 程度 时 ，R 对 各 
8 ”类 异常 行为 的 检验 力 平均 高 出 1zp8.5%; 当 测 验 长 度 达 到 80 时 ， 低 异常 程度 时 ，R 对 各 类 异 
9 ”党 行为 的 检验 力 平均 高 出 1zp5.7%。 可 以 看 出 ， 随 着 测验 长 度 的 增加 ， 低 异常 程度 时 ，R 对 
10 ”各 类 异常 行为 的 检测 率 与 1zy 的 差距 在 变 小 。 在 中 和 高 异常 程度 下 ， 两 种 统计 量 的 平均 检测 
11 ， 率 相当 接近 ， 一 些 情况 下 ，R 略 占 优 。 

12 另 一 方面 ， 两 种 统计 量 对 于 不 同类 型 异常 作答 模式 表现 出 了 不 同 的 检测 率 ， 比 如 都 对 
13 ”检测 创造 性 作答 和 作 浆 的 表现 较 好 ， 通 常 都 在 90% 以 上 ， 不 同 的 是 在 作 浆 且 低 异常 程度 下 ， 
14 ”lzp 性 能 显著 弱 于 R。 随 着 异常 程度 的 上 升 ，1zy 会 稍微 领先 ， 这 是 因为 虽然 R 具 有 对 异常 高 
15 ”能 力 的 敏感 性 ， 但 也 缺乏 对 异常 程度 变化 的 稳健 性 。 另 外 ， 它 们 对 于 探测 其 它 类 型 异常 行 
16 ”为 的 检测 力 相 对 不 高 ， 这 是 因为 作 次 和 创造 性 作答 属于 较为 极端 的 异常 类 型 ， 理 论 较 容易 
17 ”被 检测 出 ， 而 其 他 类 型 迷惑 性 较 高 ， 相 对 更 难 发 现 。 并 且 两 种 统计 量 体 现 出 了 一 些 共同 的 


18 ”趋势 ， 比 如 检测 率 会 随 着 异常 题目 覆盖 率 的 提高 而 提高 ， 也 会 随 着 测验 长 度 的 增加 而 提高 
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表 3 测验 长 度 为 20 个 项 目 时 R 和 1zp 的 一 类 错误 率 和 检测 率 


异常 类 型 ”临界 值 对 应 异常 程度 低 (0.1) 异常 程度 中 (0.25) 异常 程度 高 (0.5) 
一 类 错误 率 虚 警 率 检测 率 虚 警 率 检测 率 虚 警 率 检测 率 
R Lo R lz R lz R m R lz R 

VES 0.01 0.010 0.011 0.499 0.224 0.009 0.011 0.592 0.937 0.010 0.010 0.714 0.994 
0.025 0.024 0.026 0.729 0.400 0.023 0.026 0.827 0.973 0.024 0.026 0.901 0.998 

0.05 0.049 0.052 0.889 0.581 0.047 0.051 0.957 0.989 0.048 0.052 0.972 
幸运 猜测 0.01 0.010 0.011 0.124 0.031 0.009 0.011 0.230 0.096 0.010 0.011 0.457 0.295 
0.025 0.025 0.026 0.196 0.067 0.024 0.026 0.362 0.165 0.024 0.026 0.579 0.396 
0.05 0.049 0.052 0.262 0.119 0.048 0.052 0.472 0.243 0.048 0.052 0.673 0.487 
随机 作答 0.01 0.010 0.010 0.138 0.068 0.010 0.010 0.181 0.205 0.010 0.011 0.173 0.387 
0.025 0.025 0.025 0.201 0.120 0.025 0.025 0.272 0.279 0.025 0.026 0.321 0.465 
0.05 0.050 0.050 0.270 0.185 0.050 0.050 0.363 0.354 0.051 0.051 0.463 0.535 
粗心 0.01 0.010 0.011 0.826 0.491 0.009 0.011 0.832 0.887 0.009 0.011 0.646 0.995 
0.025 0.024 0.026 0.914 0.632 0.025 0.026 0.952 0.934 0.024 0.026 0.907 0.998 
0.05 0.050 0.051 0.946 0.736 0.051 0.052 0.985 0.961 0.050 0.052 0.989 0.999 

创造 性 作答 0.01 0.009 0.011 0.922 0.704 0.010 0.011 0.839 0.998 0.009 0.011 0.653 

0.025 0.024 0.026 0.989 0.854 0.025 0.026 0.966 1 0.025 0.026 0.957 

0.05 0.050 0.052 0.999 0.939 0.051 0.052 0.995 1 0.050 0.051 0.997 
混合 0.01 0.010 0.010 0.459 0.299 0.010 0.011 0.464 0.600 0.010 0.012 0.430 0.659 
0.025 0.025 0.025 0.552 0.405 0.025 0.026 0.585 0.638 0.025 0.028 0.596 0.688 


0.05 0.050 0.051 0.615 0.495 0.051 0.051 0.661 0.669 0.051 0.054 0.678 0.715 
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表 4 测 验 长 度 为 40 个 项 目 时 R 和 1zp 的 一 类 错误 率 和 检测 率 


异常 类 型 ”临界 值 对 应 异常 程度 低 (0.1) 异常 程度 中 (0.25) 异常 程度 高 (0.5) 
一 类 错误 率 虚 警 率 检测 率 虚 警 率 检测 率 虚 警 率 检测 率 
R am R = R lzp R s R lip R la 
VES 0.01 0.000 0.011 0.589 0.326 0.009 0.011 0.905 1 0.000 0.011 0.799 1 
0.025 0.022 0.027 0.794 0.516 0.023 0.027 0.991 1 0.022 0.027 0.954 1 
0.05 0.046 0.053 0.925 0.676 0.046 0.053 1 1 0.046 0.053 0.997 1 
幸运 猜测 0.01 0.009 0.011 0.140 0.025 0.009 0.011 0.522 0.193 0.009 0.011 0.591 0.432 
0.025 0.023 0.026 0.205 0.059 0.023 0.027 0.617 0.292 0.023 0.026 0.733 0.552 
0.05 0.047 0.054 0.274 0.107 0.046 0.053 0.682 0.389 0.046 0.052 0.822 0.653 
随机 作答 0.01 0.010 0.010 0.127 0.072 0.010 0.010 0.197 0.295 0.010 0.010 0.168 0.438 
0.025 0.025 0.025 0.187 0.130 0.025 0.026 0.291 0.378 0.025 0.025 0.329 0.510 
0.05 0.050 0.050 0.255 0.199 0.049 0.050 0.393 0.454 0.050 0.051 0.487 0.575 
粗心 0.01 0.010 0.011 0.576 0.472 0.010 0.010 0.891 0.982 0.011 0.010 0.677 0.995 
0.025 0.025 0.026 0.770 0.624 0.026 0.026 0.979 0.992 0.005 0.025 0.920 0.998 
0.05 0.050 0.051 0.898 0.735 0.050 0.051 0.995 0.996 0.050 0.050 0.985 0.999 
创造 性 作答 0.01 0.010 0.010 0.639 0.695 0.010 0.010 0.886 1 0.010 0.010 0.813 1 
0.025 0.025 0.026 0.840 0.828 0.025 0.026 0.987 1 0.025 0.025 0.973 1 
0.05 0.050 0.052 0.952 0.906 0.050 0.051 0.999 1 0.050 0.050 0.994 1 
混合 0.01 0.010 0.010 0.372 0.317 0.0010 0.012 0.549 0.637 0.010 0.012 0.488 0.668 
0.025 0.025 0.025 0.503 0.423 0.025 0.029 0.620 0.663 0.025 0.029 0.617 0.701 


0.05 0.049 0.051 0.595 0.510 0.051 0.055 0.660 0.689 0.051 0.056 0.688 0.731 
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表 5 测验 长 度 为 60 个 项 目 时 R 和 1zp 的 一 类 错误 率 和 检测 率 


异常 类 型 ”临界 值 对 应 异常 程度 低 (0.1) 异常 程度 中 (0.25) 异常 程度 高 (0.5) 
一 类 错误 率 虚 警 率 检测 率 虚 警 率 检测 率 虚 警 率 检测 率 
R lzp R Up R lzp R lzp R Up R 
VES 0.01 0.009 0.010 0.930 0.790 0.009 0.011 0.975 1 0.009 0.011 0.868 
0.025 0.024 0.025 0.996 0.904 0.023 0.026 1 1 0.024 0.026 0.998 
0.05 0.047 0.050 1 0.957 0.048 0.052 1 1 0.048 0.051 1 
幸运 猜测 0.01 0.009 0.011 0.298 0.053 0.009 0.010 0.513 0.230 0.009 0.010 0.590 0.484 
0.025 0.023 0.026 0.366 0.105 0.023 0.026 0.618 0.341 0.023 0.026 0.722 0.605 
0.05 0.047 0.051 0.426 0.176 0.047 0.051 0.701 0.445 0.048 0.051 0.820 0.702 
随机 作答 0.01 0.010 0.009 0.275 0.162 0.010 0.010 0.375 0.429 0.010 0.010 0.430 0.655 
0.025 0.025 0.024 0.343 0248 0.025 0.025 0.461 0.514 0.025 0.025 0.576 0.721 
0.05 0.050 0.049 0.414 0.333 0.050 0.050 0.549 0.590 0.050 0.049 0.696 0.775 
粗心 0.01 0.010 0.011 0.968 0.881 0.009 0.011 0.987 0.998 0.009 0.010 0.974 
0.025 0.024 0.026 0.975 0.929 0.023 0.027 0.995 0.999 0.024 0.027 0.994 
0.05 0.048 0.052 0.981 0.956 0.047 0.052 0.999 1 0.048 0.052 0.999 
创造 性 作答 0.01 0.0010 0.010 1 0.999 0.009 0.011 1 1 0.010 0.011 1 
0.025 0.024 0.026 1 1 0.023 0.026 1 1 0.004 0.027 1 
0.05 0.048 0.053 1 1 0.047 0.052 1 1 0.048 0.052 1 
混合 0.01 0.010 0.011 0.602 0.563 0.010 0.011 0.660 0.683 0.010 0.013 0.658 0.756 
0.025 0.025 0.026 0.625 0.612 0.025 0.028 0.679 0.710 0.026 0.030 0.724 0.776 


0.05 0.051 0.052 0.645 0.649 0.053 0.055 0.703 0.736 0.053 0.057 0.755 0.791 
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表 6 测 验 长 度 为 80 个 项 


时 R 和 Lzy 的 一 类 错误 率 和 检测 率 


异常 类 型 ” ”临界 值 对 应 异常 程度 低 (0.1) 异常 程度 中 (0.25) 异常 程度 高 (0.5) 
一 类 错误 率 虚 警 率 检测 率 虚 警 率 检测 率 虚 警 率 检测 率 
R m R Ls R TN R m R Ls R L3 
VEN 0.01 0.010 0.011 1 0.963 0.009 0.011 0.985 1 0.000 0.011 0.985 1 
0.025 0.004 0.027 1 0.986 0.024 0.027 1 1 0.004 0.027 1 1 
0.05 0.048 0.052 1 0.995 0.047 0.053 1 1 0.047 0.053 1 1 
幸运 猜测 0.01 0.009 0.011 0.316 0.082 0.010 0.011 0.504 0.284 0.010 0.011 0.620 0.677 
0.025 0.024 0.026 0.400 0.148 0.024 0.026 0.639 0.404 0.024 0.027 0.780 0.776 
0.05 0.048 0.052 0.490 0.227 0.048 0.052 0.749 0.515 0.048 0.053 0.889 0.844 
随机 作答 0.01 0.010 0.010 0.178 0.133 0.010 0.010 0.242 0.406 0.010 0.010 0.195 0.561 
0.025 0.025 0.025 0.250 0.207 0.025 0.025 0.344 0.481 0.025 0.024 0.387 0.625 
0.05 0.050 0.050 0.325 0.288 0.050 0.050 0.450 0.548 0.049 0.049 0.562 0.683 
粗心 0.01 0.000 0.011 0.962 0.912 0.009 0.011 0.954 1 0.000 0.011 0.797 1 
0.025 0.023 0.027 0.991 0.953 0.023 0.027 0.996 1 0.024 0.027 0.980 1 
0.05 0.046 0.053 0.997 0.975 0.046 0.053 1 1 0.047 0.052 0.999 1 
创造 性 作答 0.01 0.009 0.011 0.999 0.995 0.009 0.011 0.960 1 0.000 0.011 0.956 1 
0.025 0.023 0.026 1 0.999 0.023 0.027 0.999 1 0.023 0.027 0.999 1 
0.05 0.047 0.053 1 1 0.006 0.053 1 1 0.046 0.053 1 1 
混合 0.01 0.010 0.011 0.600 0.595 0.010 0.012 0.589 0.677 0.010 0.014 0.568 0.724 
0.025 0.025 0.026 0.616 0.623 0.025 0.029 0.633 0.707 0.026 0.032 0.644 0.752 
0.05 0.051 0.053 0.635 0.651 0.052 0.055 0.673 0.733 0.053 0.060 0.704 0.775 
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1 与 此 同时 ， 我 们 还 将 lz 与 R 在 检测 异常 行为 被 试 的 ROC 曲线 下 面积 (area under curve; 
2 AUO) 作 为 PFS 的 一 种 综合 评价 指标 。 因 为 AUC 不 依赖 于 固定 闵 值 ， 表 示 了 统计 量 的 总 体 
3 ”检测 能 力 ， 其 值 越 接 近 1， 说 明 该 检测 方法 的 性 能 就 越 好 。 通 过 比较 R 与 zy 在 多 种 情境 下 的 
4 AUC 值 ， 可 以 用 来 评价 统计 量 的 性 能 。 实 验 结果 如 下 。 
5 3&7 RAM zp B] AUC 值 
异常 类 型 ” ”异常 程度 M=20 M=40 M=60 M=80 
R qm R is R = R bs 
[37 氏 (0.1) 0.979 0.921 0.986 0.937 0.997 0.989 0.999 0.996 
(0.25) 0.987 0.995 0.996 0.998 0.997 0.998 0.998 0.998 
高 (0.5) 0.989 0.998 0.994 0.998 0.995 0.998 0.997 0.998 
幸运 猜测 。 低 (0.1) 0.643 0.598 0.689 0.610 0.771 0.669 0.828 0.709 
中 (0.25) 0.7755 0.704 0.891 0.795 0.919 0.829 0.940 0.860 
高 (0.5) 0.888 0.827 0.961 0.908 0.964 0.925 0.979 0.962 
随机 作答 — 低 (0.1) 0.696 0.649 0.699 0.671 0.780 0.752 0.752 0.724 
(0.25) 0.756 0.736 0.780 0.800 0.848 0.861 0.825 0.842 
高 (0.5) 0.807 0.834 0.808 0.846 0.902 0.927 0.867 0.898 
粗心 低 (0.1) 0.973 0.930 0.979 0.940 0.996 0.988 0.998 0.993 
(0.25) 0.993 0.989 0.996 0.997 0.999 0.998 0.998 0.998 
高 (0.5) 0.990 0.998 0.990 0.998 0.998 0.998 0.994 0.998 
创造 性 作答 低 (0.1) 0.997 0.985 0.987 0.980 0.999 0.998 0.999 0.998 
"1 (0.25) 0.994 0.998 0.996 0.998 0.999 0.998 0.997 0.998 
高 (0.5) 0.991 0.998 0.993 0.998 0.998 0.998 0.997 0.998 
混合 K(0.1) 0.827 0.794 0.824 0.803 0.845 0.837 0.846 0.838 
中 (0.25) 0.854 0.849 0.854 0.859 0.872 0.877 0.873 0.877 
高 (0.5) 0.866 0.870 0.865 0.876 0.885 0.891 0.880 0.888 
6 为 了 更 好 地 比较 R 与 lz 之 间 检 测 效能 的 差异 ， 我 们 将 二 者 的 输出 结果 做 差 ， 图 3 中 纵 
7 ”坐标 表示 二 者 检测 率 之 间 的 差 值 ， 图 4 中 纵 坐 标 表示 二 者 AUC 之 间 的 差 值 。 由 于 R 和 zy 的 
8 ”检测 率 在 不 同 测验 长 度 条 件 下 趋势 较为 一 致 ， 因 此 我 们 仅 选 取 了 测验 长 度 为 20 个 项 目的 条 
9 ” 件 下 二 者 之 间 的 差 值 作 图 。 
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图 3 R 和 12zp 在 测验 长 度 为 20 个 项 目 时 检测 率 的 差 值 
从 图 3 中 可 以 发 现 ， 在 异常 程度 较 低 时 ， 几 乎 所 有 条 件 下 R 的 检测 率 均 高 于 lz,， 而 在 


异常 类 型 为 幸运 猜测 时 ，R 的 检测 率 全 面 高 于 lzp。 这 与 前 文中 对 R 的 分 析 结 果 基本 一 致 。 
但 随 着 异常 程度 的 增加 ，1zy 逐 渐 占 据 优势 ， 此 时 R 的 检测 率 接近 或 低 于 1z,， 这 也 体现 了 相 
较 于 lzp，R 更 容易 受到 掩蔽 效应 变化 带 来 的 影响 。 需 要 注意 的 是 ， 虽 然 绝 大 部 分 异常 程度 
较 低 情况 下 ，R 相 较 于 1zp 拥 有 更 大 的 优势 ， 但 在 测验 长 度 较 大 时 (测验 包含 60, 80 个 项 目 )， 
混合 异常 类 型 情况 下 R 的 检测 率 会 略 低 于 lzp。 在 测验 长 度 较 小 时 (测验 包含 20, 40 个 项 目 )， 
及 统计 量 在 幸运 猜测 、 随 机 作答 和 粗心 的 异常 类 型 下 ， 检 测 率 会 高 于 lzp。 而 在 其 他 情况 下 ， 
有 R 统 计量 的 检测 率 会 接近 或 略 低 于 lzp。 
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由 于 AUC 代表 了 PFS 的 综合 性 和 
总 体 上 好 于 1zp， 特 别 是 在 实验 条 件 为 幸运 
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图 4R 和 1zp AUC 的 差 什 
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对 于 另 一 评价 指标 AUC, MAL 4 可 以 发 现 ， 除 了 异常 行为 类 型 为 随机 作答 ， 异 常 程度 


AUC 明显 高 于 lzp。 
5 实证 研究 
为 了 探究 R 在 实际 研究 中 的 应 用 ， 我 们 使 用 的 数据 来 自 1994 年 到 1995 年 的 美国 青少年 
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fe BEDALE 
青少年 的 教育 和 健康 相关 研究 (Harris & Udry, 2010)， 本 研究 所 使 用 的 数据 集 可 以 从 


， 不 受 一 类 错 


20 


F (national longitudinal study of adolescent health, NLSAH), 


其 余 情况 下 ，R 统 计量 的 AUC LEAT TREE TL. 
误 率 设 定 的 限制 ， 
运 猜测 这 种 典型 的 异常 高 能 力 表现 的 情况 下 ，R 的 


这 说 明 R 的 综合 检测 效果 


这 是 一 项 针对 7-12 年 
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https://www.icpsr.umich.edu/icpsrweb/ICPSR/studies/21600/datadocumentation 3X f$ . Yu 和 
Cheng(2019) 对 该 数据 进行 了 探索 性 因素 分 析 ， 结 果 支 持 该 问卷 仅 考查 一 个 维度 的 假设 。 该 
数据 中 包含 19 个 用 于 测量 被 试 情绪 状态 的 项 目 ， 以 四 等 级 李 克 特 量 表 的 形式 呈现 。 被 试 需 
要 在 四 个 选项 中 选取 最 符合 自己 过 去 一 周 内 状态 的 描述 ， 分 别 编码 为 0，1，2，3。 由 于 几 
乎 没有 被 试 选取 类 别 四 ， 即 大 多 数 时 候 符合 或 总 是 符合 ， 所 以 类 别 3 和 类 别 4 合并 为 了 一 
个 类 别 。 

在 筛选 出 存在 缺失 数据 的 97 名 被 试 后 ， 将 余下 的 6457 名 被 试 的 数据 用 作 分 析 。 步 又 
一 ， 我 们 使 用 PARSCALE 4.1 软件 工具 ， 以 GRM 模型 对 作答 数据 进行 拟 合 ， 目 的 是 为 得 到 
19 个 项 目的 项 目 参 数 。 鉴 于 已 将 类 别 3、 类 别 4 合并 为 一 个 类 别 ， 所 以 最 终 存在 3 个 选项 


类 别 ， 也 即 每 个 项 目 中 存在 2 个 项 目 难 度 参数 (bi,b,) 和 1 个 区 分 度 参 数 (qa)， 拟 合 结果 如 下 。 


T 


表 8 全 国 青 少年 健康 纵向 研究 (1994-1995) 拟 合 GRM 模型 项 目 参 数 

题 号 a bi b; 题 号 a bi b; 
1 0.859 0.393 2.199 11 0.759 -0.544 1.262 
2 0.655 0.668 2.474 12 0.661 0.336 2.142 
3 0.889 0.741 2.547 13 0.962 0.445 2.251 
4 0.499 -0.778 1.028 14 0.729 0.740 2.546 
5 0.814 -0.345 1.461 15 0.652 -0.155 1.651 
6 1.136 0.272 2.078 16 1.314 0.064 1.870 
7 0.813 -0.211 1.595 17 0.863 0.596 2.402 
8 0.503 -1.028 0.778 18 0.827 0.023 1.829 
9 0.917 1.424 3.230 19 0.859 1.794 3.600 
10 0.831 0.946 2.752 - - - - 


步骤 二 中 ， 前 文 已 经 提 到 ， 要 使 用 R 和 1zp， 需 要 生成 一 批 正常 考生 的 得 分 数据 ， 来 获得 特 


定 项 目 条 件 下 的 分 布 ， 以 此 来 确定 临界 值 。 在 软件 Matlab 2020a 中 模拟 生成 10000 名 能 
服从 标准 正 态 分 布 的 被 试 (6457 名 考生 的 能 力 接近 正 态 分 布 ， 均 值 为 -0.0003， 标 准 差 
0.9222)， 让 这 批 被 试 按照 GRM 的 作答 概率 进行 作答 模拟 ， 计 算 这 10000 名 被 试 的 R 和 1zp。 
为 了 使 实验 条 件 接近 真实 情况 ， 计 算 零 分 布 时 所 使 用 的 被 试 能 力 参数 均 为 估计 值 。 根 据 前 
文 的 研究 结果 ， 选 取 5% 的 一 类 错误 率 截 断 点 ， 可 以 做 到 控制 一 类 错误 率 较 小 的 情况 下 ， 获 
得 尽 可 能 高 的 检测 率 。R 和 1zy 的 分 布 如 下 图 所 示 。R 在 该 分 布下 的 第 95 百 分 位 数 为 98.49， 
lz 在 该 分 布下 的 第 5 百 分 位 数 为 -1.23; 
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图 5 美国 青少年 健康 纵向 研究 (1994-1995) 模 拟 10000 名 被 试 的 R 和 1z, 分 布 
步骤 三 ， 计 算 原 始 数据 中 6457 名 被 试 的 R 和 1zp， 以 和 临界 值 进 行 比较 ， 来 判断 被 试 是 
否 存 在 异常 行为 。 经 过 比较 得 到 ，6457 名 被 试 中 ， 由 有 R 标 记 出 的 异常 行为 被 试 有 423 A, 
占 比 6.6%， 由 1zp 标 记 出 的 异常 行为 被 试 有 562 人 ， 占 比 8.7%， 同 时 违反 R 和 1zp 判 定 标准 的 
被 试 有 253 人 。 由 于 实证 研究 中 ， 被 试 是 否 真 实 存在 异常 行为 是 未 知 的 ， 
警 率 以 及 检测 率 。 考 虑 到 模拟 研究 的 结果 显示 ，lzp 通 常 相 较 于 R 更 为 严 苛 ， 即 更 容易 将 被 


试 判断 为 异常 ， 所 以 本 研究 中 由 


取 了 三 类 根据 统计 量 标记 为 异常 的 被 试 共 15 人 的 作答 模式 ， 如 下 表 所 示 


类 型 ”被 试 序号 
E 15 
23 
48 
49 
50 


a 


PR 


K 9 标记 为 异常 的 被 试 作 答 模式 


作答 向量 
(2,1,0,0,0,0,0,0,0,0,0,2,0,0,2,0,0,0,0) 
(0,1,0,2,1,0,0,1,2,0,2,2,1,0,2,2,2,0,2) 
(2,0,2,2,1,2,0,2,2,1,2,1,2,2,2,2,2,0,2) 
(1,0,0,2,0,0,0,0,0,0,0,0,0,0,0,1,0,0,2) 
(2,2,2,0,2,2,2,1,0,0,1,2,0,0,1,0,0,0,0) 


[i 


因此 无 法 计算 虚 


lzp 标 记 出 的 异常 行为 被 试 数量 相对 较 多 也 符合 预期 。 
为 了 更 一 步 考察 两 个 统计 量 的 表现 ， 我 们 对 被 检测 出 的 考生 的 作答 i 


行 分 析 。 分 别 选 


R 43 
45 
99 
108 


(0,0,2,2,0,0,1,1,0,1,1,0,0,0,0,0,0,1,0) 
(0,0,0,2,1,2,0,0,0,1,0,0,0,0,0,1,0,0,0) 
(1,0,0,1,0,1,1,0,0,2,1,2,0,0,0,0,1,1,0) 
(0,0,0,1,0,0,0,2,0,0,1,0,0,0,2,2,0,0,0) 
(0,2,0,0,1,0,0,0,0,0,0,0,0,0,2,0,0,0,0) 


55 
101 


(1,0,0,1,2,0,2,0,1,0,2,1,0,0,1,0,1,0,1) 
(0,0,2,2,1,2,0,2,1,0,2,1,2,0,2,1,0,0,0) 
(1,0,2,2,2,0,2,0,1,2,2,1,2,0,2,2,2,1,0) 
(2,2,2,1,2,2,1,2,0,2,1,0,2,0,1,2,0,1,0) 
(0,1,0,1,0,2,1,2,1,2,2,0,1,0,2,1,1,1,1) 


注 :“ 共 同 ” 表 示 同 时 被 R 和 1zp 标 记 为 异常 ,“ 有 ”表示 仅 被 R 标 记 为 异常 ,“lzp ”表示 仅 被 lz 标记 为 异常 
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1 YARI: (1) 同 时 被 两 种 统计 量 标记 异常 的 被 试 ， 都 具有 较为 明显 的 异常 状况 ， 得 分 较为 
2 ”极端 ， 如 第 15. 49 号 被 试 ， 其 估计 能 力 较 低 ， 然 而 他 们 都 在 不 止 一 个 项 目 上 作答 为 2， 不 
3 ”符合 低能 力 者 的 正常 作答 模式 。 再 如 第 48 号 被 试 ， 其 在 大 量 项 目 上 作答 为 2， 估 计 能 力 应 
4 ”该 偏 高 ， 但 是 却 在 第 2、7、18 题 上 作答 为 0， 也 同样 不 符合 高 能 力 者 应 有 的 作答 模式 (2) 
5 ， 仅 被 R 标 记 的 异常 被 试 群体 ， 具 有 较为 明显 的 特点 ， 即 作答 中 包含 大 量 的 0， 这 说 明 这 部 分 
6 ”被 试 以 低能 力 者 居多 ， 但 是 却 能 在 少数 项 目 上 获得 2， 属 于 异常 高 能 力 表现 。R“ 专 注 ” 于 
7 ”将 这 部 分 被 试 第 选 出 来 ， 也 与 前 文中 介绍 的 R 的 特点 相 一 致 ，(3) 对 于 仅 被 ly 标记 的 被 试 ， 
8 ”他 们 的 作答 结果 较为 “均匀 ”， 这 可 以 理解 为 不 同 于 R 对 低能 力 者 的 异常 高 能 力 表现 的 特异 
9 ”性 ，1z, 对 不 同 异常 类 型 检测 的 有 履 盖 面 更 广 。 
10 6 讨论 和 未 来 的 研究 方向 
11 本 文 提出 了 一 种 基于 残 差 的 个 人 拟 合 统计 量 R， 其 在 检测 低能 力 被 试 获得 异常 高 能 力 
12 现 方面 具有 一 定 的 优势 。 在 多 级 计 分 模型 的 背景 下 ， 比 较 了 R 和 1zp 的 经 验 分 布 GRE R SE 
13 ” 现 正 偏 态 分 布 ，lzy 则 呈现 负 偏 态 分 布 ), 随 着 测验 长 度 的 增加 ， 二 者 分 布 的 偏 度 逐 渐 降 低 。 
14 在 模拟 研究 中 ， 设 置 不 同 的 一 类 错误 率 ， 获 得 R 和 1zp 的 经 验 临界 值 ， 用 以 区 分 正常 被 
15 ” 试 和 存在 异常 的 被 试 。 通 过 模拟 被 试 在 测验 中 不 同 程度 以 及 不 同类 型 的 异常 作答 行为 ， 使 
16 ”用 R 和 1zp， 计 算 比较 被 试 的 个 人 拟 合 指 标 和 临界 值 的 相对 位 置 ， 来 判断 被 斌 是否 异常 ， 用 
17 ”检测 率 和 AUC 作为 R 和 lzy 检 测 异 常 被 试 的 指标 。 需 要 注意 的 是 ， 尽 管 研究 二 中 列举 了 三 种 
18 ”大 小 的 一 类 错误 率 (0.01，0.025，0.05) 及 其 对 应 的 检测 率 ， 但 在 实际 应 用 中 ， 我 们 需要 进行 
19 ”权衡 ,力求 控制 一 类 错误 率 的 情况 下 ， 尽 可 能 提高 检测 率 ， 研 究 结 果 显 示 ， 选 取 0.05 的 一 
o 20 ”类 错误 率 最 为 合适 。 因 此 ， 我 们 着 重 讨 论 了 0.05 一 类 错误 率 水 平 下 二 者 检测 率 的 差异 。 研 
21 RARER: 中 低 异 常 程度 时 ( 即 异 常 测验 行为 覆盖 的 项 目 数 较 低 )，R 相 对 lzjy 拥 有 更 好 的 
22 ”检测 效果 ， 特 别 是 在 异常 行为 类 型 为 幸运 猪 测 (低能 力 被 试 有 较 大 概率 获得 高 分 ) 时 ，R 的 检 
23 ” 测 效 果 相 较 于 lzy 具 有 显著 优势 ， 这 与 理论 分 析 中 R 具 备 异 常 高 能 力 敏 感性 的 特点 相 一 致 ; 
24 ”而 在 其 他 条 件 下 ， 二 者 则 较为 接近 ， 或 /zy 略 优 于 R。 考 虑 到 zy 在 同 条 件 下 的 实际 一 类 错误 
25. 率 通 常会 略 高 于 R， 这 将 导致 其 检测 率 略 微 地 升 高 。 同 理 ， 个 人 拟 合 指标 的 一 类 错误 率 在 
26 ”模拟 研究 中 通常 存在 一 定 的 膨胀 ， 理 论 检测 率 应 当 略 小 于 表格 所 展示 的 值 。 对 于 不 涉及 一 
27 ”类 错误 率 的 AUC 指标 ，R 的 优势 会 更 加 地 明显 。 
28 在 实际 测验 情景 中 ，R 具 有 较 高 的 应 用 价值 ， 这 是 因为 在 大 部 分 选拔 测试 中 ， 低 能 
29 ”者 更 倾向 于 主动 产生 异常 作答 行为 ， 来 获得 与 高 测验 成 绩 相 挂钩 的 切身 利益 ， 其 行为 通常 
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偏向 被 动 ， 危 害 性 也 相对 较 低 。Rupp(2013) 的 文献 中 ， 系 统 地 回顾 了 前 人 关于 异常 测验 行 
为 的 研究 ， 其 中 低能 力 者 表现 出 的 作弊 和 猜测 行为 相对 更 受到 研究 者 的 关注 ， 这 也 说 明 作 
次 和 猜测 行为 是 众多 测验 异常 行为 中 影响 较为 广泛 ， 研 究 者 迫切 需要 解决 的 问题 。 实 际 使 
用 当中 ， 由 于 个 人 拟 合 统计 量 的 有 效 性 依赖 于 项 目 参 数 ， 当 项 目 参 数 未 知 时 ， 在 包含 “ 异 
常 作答 数据 ”的 基础 上 进行 的 参数 估计 会 产生 “遮蔽 效应 ” 因此 这 种 情况 下 最 好 对 数据 进 
行 适当 的 处 理 ， 比 如 考虑 稳健 的 参数 估计 方法 (Cooperman et al., 2021) 或 者 进行 数据 清理 
(Hong et al., 2020) 等 。 并 且 ， 考 虑 到 R 的 特性 ， 可 以 将 R 与 其 他 统计 量 结合 使 用 ， 以 发 挥 最 
好 的 效果 。 

本 文 在 五 级 计 分 的 背景 下 进行 了 模拟 实验 ， 在 实证 研究 部 分 基于 已 知 项 目 参数 在 三 级 
计 分 下 进行 了 模拟 实验 ， 其 结果 和 五 级 计 分 下 基本 一 致 。 在 未 来 可 以 考虑 在 更 多 其 他 等 级 
计 分 的 情况 下 进行 研究 验证 。 另 外 ， 由 于 R 使 用 的 是 经 验 临 界 值 ， 在 一 定 程度 上 会 影响 它 
的 使 用 。 未 来 的 研究 方向 可 以 是 在 R 的 基础 上 ， 对 其 进行 拓展 ， 得 到 其 标准 化 的 形式 ， 使 
其 分 布 为 正 态 分 布 或 渐进 正 态 分 布 ， 临 界 值 的 选取 就 不 必 依赖 于 特定 的 测验 项 目 参 数 ， 省 
去 获取 临界 值 的 步骤 ， 或 是 在 残 差 处 理 中 进行 改进 ， 使 其 保留 初步 分 辨 异常 测验 行为 类 型 
的 信息 ; 又 或 者 对 R 进 行 拓 展 ， 使 其 适用 于 更 为 广泛 的 IRT 模 型 。 最后， 本 研究 中 未 涉及 项 
目 参 数 对 于 两 种 统计 量 的 影响 ， 为 了 考虑 更 为 广泛 的 实际 应 用 场景 ， 将 项 目 参数 的 估计 误 
差 纳 入 考虑 也 是 未 来 需要 进一步 深入 考虑 的 问题 。 
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Abstract 


Tests are widely used in educational measurement and psychometrics, and the examinee’s 
aberrant responses will affect the estimation of their abilities. These examinees with aberrant 
responses should not be treated with conventional methods, the important thing is to accurately 
screen them out of the normal group. To achieve this, a common method is to construct person-fit 
statistics to detect whether the response patterns fit their estimated abilities. 

In this study, a residual-based person-fit statistic R was proposed, which can be applied to both 
dichotomous or polytomous IRT models. The construction of R is based on a weighted residual 
between the observed response and the expected response. By accumulating the weighted residuals, 
the goodness of fit can be calculated and compared with a specific critical value to determine 
whether an examinee is aberrant or not. Given that tests with polytomous items can provide more 
information, polytomously scored items are being increasingly popular in educational measurement 
and psychometrics. The ability of R statistic to detect aberrant response patterns under the graded 
response model was mainly considered in this article. 

An existing polytomous person-ft statistic lzp was also introduced in its outstanding 
standardized form and superior power. In the first study, a simulation study was conducted to 
generate the empirical distribution of R statistic and lzy. R statistic is an accumulation of weighted 
residuals, showing a positive skew distribution; l,,, shows a negative skew distribution when the 
test is less than 80 items. Both of them differ from the standard normal distribution, It is necessary 
to set critical value according to the type 1 error, using it to distinguish whether each respondent's 
response pattern is fitted. In the second study, examinees with different aberrant behaviors (e.g., 
Cheaters, Lucky guessers, Random respondents, Careless respondents, Creative respondents and 
Mixed) under different test length conditions were simulated, and the detection rate as well as area 
under curve (AUC) were used to compare the effectiveness of the two person-fit statistics. The 
results show that the R statistic has a better detection rate than !zp when the aberrant behavior affects 
only a few items or the aberrant behavior is cheating or guessing. When the aberrant behavior covers 
plenty of items, L7, is slightly better than R statistic. Then, an empirical study was also conducted 
to show the power of R statistic. 

The optimize range of R statistic and L7, are different, so we may combine R statistic and. L7; 
in the future person-fit studies. R statistic has a better detection rate under certain conditions 


compared to l,,,, especially when cheating and lucky guessing happened. Considering that cheating 


Zp? 
and guessing behaviors of low-ability examinees are more preferred in many aberrant test behaviors, 


the R statistic is valuable for further research and exploration in real-world applications. 


Keywords: appropriateness measurement, item response theory, residual-based person-fit statistic, 
aberrant detection, polytomous item response models 
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附录 A: 五 级 计 分 下 ，R 和 v 的 比较 


表 A-1 测验 长 度 为 40 个 项 目 时 R 和 v 的 一 类 错误 率 和 检测 率 
异常 类 型 ” 临界 值 对 应 异常 程度 低 (0.1) 异常 程度 中 (0.25) 异常 程度 高 (0.5) 
一 类 错误 率 虚 警 率 检测 率 虚 警 率 检测 率 虚 警 率 检测 率 

R v R v R v R v R v R v 

VENE 0.05 0.053 0.061 1 1 0.050 0.059 1 1 0.045 0.053 1 1 
幸运 猜测 0.05 0.044 0.065 0.523 0.270 0.048 0.061 0.862 0.658 0.054 0.059 0.970 0.907 
随机 作答 0.05 0.054 0.052 0.718 0.570 0.054 0.050 0.662 0.618 0.049 0.055 0.747 0.720 
粗心 0.05 0.057 0.059 0.623 0.335 0.047 0.055 0.855 0.697 0.049 0.059 0.958 0.898 

创造 性 作答 0.05 0.051 0.059 1 1 0.048 0.056 1 1 0.051 0.053 1 1 
混合 0.05 0.053 0.054 0.850 0.740 0.043 0.04] 0.973 0.887 0.043 0.058 0.975 0.963 

表 A-2 测验 长 度 为 80 个 项 目 时 R 和 mu 的 一 类 错误 率 和 检测 率 
异常 类 型 ”临界 值 对 应 异常 程度 低 (0.1) 异常 程度 中 (0.25) 异常 程度 高 (0.5) 
一 类 错误 率 虚 警 率 检测 率 虚 警 率 检测 率 虚 警 率 检测 率 

R U R U R U R U R U R U 

VENE 0.05 0.053 0.048 1 1 0.056 0.049 1 1 0.052 0.050 1 1 
幸运 猜测 0.05 0.04 0.045 0.743 0.395 0.053 0.045 0.955 0.815 0.049 0.046 0.992 0.988 
随机 作答 0.05 0.045 0.048 0.557 0.570 0.053 0.040 0.807 0.722 0.047 0.0047 0.770 0.737 
粗心 0.05 0.046 0.050 0.797 0.388 0.043 0.053 0.987 0.797 0.055 0.045 0.995 0.988 

创造 性 作答 0.05 0.047 0.045 1 1 0.055 0.045 1 1 0.049 0.059 1 1 
混合 0.05 0.053 0.046 0.935 0.787 0.051 0.048 0.960 0.943 0.049 0.049 0.987 0.998 
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